# -*- coding: utf-8 -*-
import os
import json
import multiprocessing


def open_txt(file_name):
    with open(file_name, 'r') as f:
        try:
            line = f.readline()
            while line:
                yield line.strip()
                line = f.readline()
        except:
            print('No value')


def conver_label(gt):
    cn = ['！', '（', '）', '：', '，', '．', '［', '］', '【', '】', '；', '％', '０', '１', '２', '３', '４', '５', '６', '７', '８', '９',
          '％', '－',
          'Ａ', 'Ｂ', 'Ｃ', 'Ｄ',
          'Ｅ',
          'Ｆ', 'Ｇ', 'Ｈ', 'Ｉ', 'Ｊ', 'Ｋ', 'Ｌ', 'Ｍ', 'Ｎ', 'Ｏ', 'Ｐ', 'Ｑ', 'Ｒ', 'Ｓ', 'Ｔ', 'Ｕ', 'Ｖ', 'Ｗ', 'Ｘ', 'Ｙ', 'Ｚ', 'ａ',
          'ｂ',
          'ｃ', 'ｄ', 'ｅ', 'ｆ', 'ｇ', 'ｈ', 'ｉ', 'ｊ', 'ｋ', 'ｌ', 'ｍ', 'ｎ', 'ｏ', 'ｐ', 'ｑ', 'ｒ', 'ｓ', 'ｔ', 'ｕ', 'ｖ', 'ｗ', 'ｗ',
          'ｙ',
          'ｚ']
    en = ['!', '(', ')', ':', ',', '.', '[', ']', '[', ']', ';', '%', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
          '%', '-',
          'A', 'B', 'C', 'D',
          'E',
          'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'a',
          'b',
          'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x',
          'y',
          'z']
    gt = ''.join(gt.split()).strip()
    gt_tmp = list(gt)
    for i in range(len(gt_tmp)):
        for c in range(len(cn)):
            if gt_tmp[i] == cn[c]:
                gt_tmp[i] = en[c]
    gt_tmp = ''.join(gt_tmp)
    '''
    for i in range(len(gt_tmp)):
        if c in cn:
            j = cn.index(c)
            gt_tmp[i] = en[j]
    '''
    return gt_tmp


else_tmp = ['簑', '毣', 'ど', 'ｘ', '廢', '獆', 'ヤ', '偣', '〖', '鵁', '鉰', 'ɔ', '﹊', '渢', '仌', 'と', '紸', '責', '羶', '鉭', '⒙',
            '饠', '馃', 'ƒ', 'Ⅵ', '渰', 'α', '冑', '鞞', '騵', '｛', '灨', '賮', '測', '虯', '鶂', 'ゃ', '鈢', '崠', '剈', '㻅', '幙',
            '厴', '幍', '⒂', '糛', '鈙', '喗', '‵', '£', '⑼', '僗', '慃', '榲', '囑', 'Ь', '熮', '軭', '仚', '＝', '熣', '~', '鴾',
            '挼', '焃', '⊿', '匂', '渱', 'Т', '玠', '僎', '鋆', 'ª', '挸', '堺', 'シ', '報', '雐', '‖', '匌', '臡', '暅', '臖', '僛',
            '∕', '蕌', '钑', '\U00100001', '紽', '☆', '眱', ']', 'Î', '⚑', 'め', '堷', 'Ч', '簊', 'ョ', '愽', '滜', 'η', '陓', '饦',
            '墲', '誌', '蕎', '蓢', '憲', '寊', '盀', 'ㄏ', '┑', '旡', '鴻', '蕒', '繝', '褍', '∥', 'ч', '⊥', '蘝', '／', '鷝', '浿',
            '焄', '゜', '︵', '偝', '揮', '嘯', 'Η', '忀', 'Þ', 'せ', '憭', '渵', '鴸', '靁', 'メ', '∏', '堻', '汸', '媈', '焂', '簕',
            '璌', 'ぐ', '爑', 'ㄤ', '訳', 'ⅹ', '鋄', 'あ', '⒆', '€', 'ウ', '柋', 'み', '躗', '働', '爗', '坬', '僕', '匁', '攑', 'Ν',
            '駢', '饹', '眻', '鬞', '則', '゛', '娊', '╲', 'ⅷ', '爚', 'У', '毢', '僝', '葪', '仐', '坲', '喚', '骲', 'Θ', 'ぢ', '籬',
            'И', '絀', '︱', '④', '鶅', 'я', '礍', '滬', '﹖', '慂', '胕', '僐', '∶', '貞', '鴵', 'ㄖ', '踘', '罌', '觔', '厹', 'ɡ',
            '旝', '.', '⒗', 'ゅ', '翆', '囖', '浻', '箣', '㏑', '\u200d', '貣', '笧', '﹦', '憹', '捁', '薫', '蘒', '寎', 'ひ', '崫',
            'ɑ', '⒎', '揨', '雗', '鷔', 'ω', '撗', '皽', '笩', '\xad', '嘳', '﹂', '匉', '∫', '│', '霶', 'ㄣ', 'ㄧ', 'を', '躎', 'Ô',
            '蘎', '喍', '碷', 'г', '宼', '坱', '仛', '⽓', 'ワ', '齂', 'ぞ', 'ぜ', '箘', '蘓', '恵', '力', 'н', '臗', '榮', '灠', '骹',
            '箟', '褕', '閶', '寉', '灧', 'Ρ', '＄', '䆳', '▅', '喌', '骻', '━', 'ダ', '鶋', '籤', '齇', 'С', '\ue219', '礑', '〒',
            '焀', 'ㄈ', '囏', '礕', '貢', '絃', '啺', '襰', '柌', '潩', '┝', 'ж', 'Ñ', 'ê', '▁', '鴺', 'ǎ', '«', '┪', '軫', '黆',
            '榺', '骮', '璈', '婾', '|', '碪', '爖', '褘', '鼺', '瞯', '﹥', '釂', '?', '憫', '墪', 'ム', '﹣', '鬧', '恟', '購', '晳',
            '襹', '╰', 'す', '铏', '橓', '玣', '滮', 'ㄦ', '賹', '▓', '錒', '➤', 'Н', '钄', '鶇', 'ー', '貝', '▶', '愸', '骳', '販',
            '嘡', '嬙', '僟', '滖', '缿', '墤', 'チ', 'ヾ', '姴', '錑', '滣', 'ぶ', '薻', '猺', '滪', '僙', '趒', '鶄', '渜', '⒖', '㷧',
            'ぺ', '笚', '柊', '簆', '坧', '\ue502', '酀', '鮋', '=', '⊙', '賸', 'æ', '滭', '蕇', '獇', 'А', '爌', '⒈', '+', '墬',
            '榩', 'ū', '｡', '糥', 'ц', '偧', 'さ', '聏', '桽', '暁', '⒏', '絅', '霽', 'π', '≌', '﹚', '鬠', '熫', '襶', '鶑', '礚',
            '岤', '∠', '砮', '憺', '嬛', '偙', '籧', 'Ε', '嘦', '饻', '憱', '鹢', '毘', '皻', '灲', 'а', '褟', '琓', 'с', '\uf0ab',
            '堼', 'Σ', '鬚', '廝', '∟', '踛', '靂', 'き', '╮', '狔', '魽', '皸', '琕', '冄', '鈟', '檾', '渨', '砨', '浹', '﹌', 'ポ',
            '╗', 'σ', 'ま', '狌', '臞', 'ェ', 'Щ', '﹟', '堲', '\uf096', 'Ξ', '爏', '礐', 'ね', '閭', '鼳', '眲', '慅', '渳', '褎',
            '獃', '捊', '铚', '趗', '踡', '┗', '閮', '襼', '鮊', '≯', '蘙', '▆', 'Í', '岦', '滒', '⾃', '厬', '櫃', '‧', '﹉', 'º',
            'や', '鮈', 'イ', '▄', '鈝', '罍', '鞮', '笐', '⑴', 'ˉ', '鄽', '㈥', '揫', '罉', 'ヒ', '絆', '鉯', '糪', '鬪', '榪', '晵',
            '攟', '滝', '騲', '玤', '褞', '眳', '±', 'О', '錍', '貪', '撜', '鷟', '誋', 'ビ', '錏', 'Л', '감', '霷', '崙', '瑽', '嘫',
            '羺', '褔', '虵', 'ˋ', '☞', '箠', '⾄', '腝', '場', '袟', '┆', '誁', '錐', '踕', 'ﾞ', 'ロ', 'в', '旚', '娀', '✦', '偡',
            'ゼ', '旪', '鬜', '鈘', '鶏', '攝', '喕', '毜', '*', 'ㄆ', 'ゥ', '⒋', '潧', '瞴', '岕', '橌', '誈', '仠', 'É', '▼', '═',
            'い', '潫', '駚', '匎', '沍', 'ī', '｀', '駙', '減', '�', 'ば', '觝', '閯', '榬', '≈', 'オ', '檻', 'Х', 'Ö', '璒', '〆',
            '礔', '騷', '揝', '蘕', '撠', '↓', '憪', '廡', '訸', '訽', '幗', '＾', '賲', '踐', 'ˊ', '柖', 'Ⅰ', '×', '┈', '觧', '嘵',
            '簎', '琑', '熩', '∞', '┳', '⽂', '钃', '玝', 'ú', 'グ', '蕑', '榰', 'ボ', '櫆', '┏', '铇', '︹', '宲', '籨', 'Ю', '攜',
            '⾏', '❸', 'Ё', '腡', '♀', '№', 'ъ', '隺', '\uf0d8', '⒉', 'ろ', 'ラ', '僞', '駣', '閷', 'カ', '＆', '褏', '礙', '墦',
            '椩', '黈', '髃', '踙', '賴', '◥', '§', '晲', 'Ù', '鄲', '①', '誃', 'ハ', 'ピ', '⾷', '\uf09f', '厯', '軱', '檿', '貨',
            '撡', '寈', '釆', '剎', '挿', '黀', 'Г', '趐', '┇', '宻', '｜', '⑻', '蓧', '梂', '誐', '駧', '葧', 'ヘ', '恥', '媄', '猼',
            '婻', '箖', '攠', 'Р', 'ù', 'ジ', '鈖', '黓', '黇', '鷡', '〇', '姵', '陎', '換', '襯', '＋', '碢', '勽', '￼', '銻', '幏',
            '旘', '鋉', '雊', '雖', '蕐', 'る', '剏', '║', '徳', '認', '"', '鷖', '冓', '徰', '恡', '熤', '┣', '蘍', '袛', '軦', '＼',
            '診', '毞', '鄵', 'ō', '琠', '籲', '薲', '饳', '撔', 'も', 'で', '櫁', '梈', '·', '鉳', '剅', 'ㄛ', '鈠', '恲', '冘', '︰',
            '┅', '檽', '暉', '銺', '㎝', '饞', '娂', '剄', '黊', '▃', '梌', '皷', 'ˇ', '瞫', '糬', '潡', '撟', '滙', '™', '雔', '糧',
            'ㄘ', '訯', 'å', '冔', '趛', '翄', '襸', 'Á', '誏', 'Ð', '袧', '毟', '砶', '姺', '蓤', '鹙', '攔', '㗖', '姲', '蚄', 'θ',
            '囓', 'д', '臠', '閴', '鷚', '笝', '爐', '蕆', '砽', '玥', '剉', '暃', '﹑', '姶', '´', '袩', '¶', '臘', '睆', '駦', '訲',
            '岏', '鄺', '˙', '鞡', '鼲', '愷', '釁', 'む', '鹝', '崟', '籥', '¨', '㎜', '鬫', '捄', '礘', '&', '睅', '◇', '瞶', 'Ì',
            '玱', 'ケ', '賱', '缾', 'γ', '鬤', '灮', 'ド', 'Ⅳ', 'δ', '葹', '▌', '琎', '錙', '嬤', '﹝', 'л', '￥', 'ÿ', 'Α', '紻',
            '趡', '\uf09e', '┐', '幘', '熜', '恦', '灡', '‚', '徶', '撢', 'ネ', '∀', 'Ц', 'ö', 'ン', '躋', 'þ', '￣', '熧', 'ē',
            '❷', 'ƹ', 'э', '箙', '閵', '囌', '玧', 'ブ', '∷', '皺', 'ペ', 'り', '⒄', '喓', '皵', 'Д', '幖', '↖', '誄', '揥', '崥',
            '蓮', '鬡', 'µ', '≤', 'こ', '陃', '躍', '趞', '薸', '忂', '∵', '鷞', '冏', '魾', '⑦', 'Ⅴ', ':', '鉵', '砯', 'ò', '捇',
            'Å', '胟', '»', '笖', '⒛', 'ぎ', 'ヲ', '崢', '熯', '⒃', '阾', '廠', '崘', '嬟', '理', '┙', '桻', '羻', '鉧', '焇', '觘',
            '橍', '躙', '鷗', '雓', '臕', '蓭', '籦', 'ý', '┒', '匋', '袝', '⑽', '・', 'Ф', '箒', '崪', '鞢', '撥', '鈞', '浺', '钀',
            '‐', '焆', '@', '箑', '獄', '毚', '●', '襷', '饟', '酂', '沇', '褋', '鞦', '瞺', '簙', '毝', '翇', '\uf075', '恞', '觕',
            '襮', '熝', '踒', '滯', '岨', '➙', 'Ψ', '偪', '羷', '℅', '蕋', 'ゎ', '墣', '堽', '囍', '齅', '柗', '＿', '簒', 'ş', '嘰',
            'ü', '鬛', '厺', '⼀', '柡', '#', 'Ъ', '紼', '觗', 'ぅ', '嬕', '訴', 'À', 'λ', 'わ', '錔', '灣', '蘘', '仦', '墳', 'Χ',
            '誒', '葻', '┓', '攗', '勻', '鴽', '齆', '負', '﹋', '堮', 'ャ', '躛', 'ベ', '鄴', 'サ', '晹', '憸', 'ç', '胑', '⽆', 'ㄚ',
            '◣', 'ㄇ', '︽', '齀', '隸', '鞧', '貫', '다', '﹙', '嬓', '匊', '鹐', '勸', 'Э', '聑', '\uf0b2', '⼤', '愾', '糣', '﹠',
            'ñ', '毐', '嘠', '幊', '钖', '撝', '礎', '靀', '亾', '⒇', '囕', 'û', '觙', '嬜', '雈', '臚', '冃', '袥', '獁', '胦', '訮',
            '⒍', '碬', '桾', '潟', '琗', '靆', '橋', '喎', 'ǚ', '葦', '岎', '碶', '⑾', '㈣', '鼿', '梇', '∑', '橏', '椱', '滛', '橒',
            '钘', '釃', '箛', '嘝', '琍', '滧', '¦', '嬣', '踗', ')', '腜', '橕', '↗', '閸', '璏', '袘', '榳', 'М', '聖', '锜', '捈',
            '揤', '厳', '眴', '鬥', '觢', '渪', '徸', 'ô', '鉬', '箚', '璉', 'び', '\u202c', '⑧', '铻', '㎏', '罏', 'Μ', 'コ', 'Ж',
            '$', 'Ⅶ', '琜', '⼒', 'ㄌ', '狊', 'Е', '沕', '岞', 'ょ', '騱', '＞', '笘', '褌', '仜', '梊', '慆', '觛', '鹀', '臙', '鞤',
            '罎', '徱', 'Π', '軧', '揰', 'о', '铦', '黐', '袗', '―', 'ο', 'È', '┴', '幇', 'ぱ', '⒌', '┽', '柎', '烿', '猵', '皾',
            '腞', '┾', '趘', 'ヂ', '厲', '鄿', '〓', 'ゴ', 'ð', '廮', '觍', '鋀', '＂', 'ヨ', '徴', '︶', '胊', '⑹', '㈡', '琟', '〝',
            'Â', '饤', '觠', '﹁', '㈤', '`', '╬', '︳', '◆', '﹨', '皭', '\uf06c', '椧', '﹏', 'ń', '烼', '決', '瞮', '坮', '羳',
            '姽', '▲', 'ニ', '〥', 'Φ', '砵', '鈛', 'ⅴ', '媉', '▍', '⑤', '☀', '↑', '瞲', '汼', '罈', '\x96', '騸', '列', '√', '蕅',
            '髆', '╭', '菭', 'ë', '囇', 'ㄎ', 'ლ', '馂', '┨', '駝', 'м', '碩', '➖', '⒘', '爎', 'ざ', '賻', '騫', '䜣', '賭', '貟',
            '烻', '⑿', '砪', '娍', '薽', '僔', '錌', '･', '柦', '閳', '㈩', '喒', '匃', '徯', '恮', 'ю', '褉', 'ぃ', '▽', '璊', 'ㄊ',
            '釄', '紺', '喐', 'щ', '┃', '沖', '偦', '¬', '聁', '臤', 'エ', '㈠', '′', '簗', '嘨', '婽', 'な', '趓', '眾', '⑷', '獀',
            '籮', 'げ', 'Δ', '箮', '箥', '毧', '胐', '鮄', 'ā', '暈', '廞', 'ν', '＇', '鞱', '堯', 'Ω', '鶎', '獂', '錕', '姼', '饢',
            '‥', '廦', 'Ï', '◎', 'ф', 'ㄒ', '﹢', '隻', '柟', '鮁', '閺', '狑', 'â', '鼸', 'ǘ', '躊', '蓡', '灪', '┯', '瑼', '襲',
            '笡', '挷', '鄶', 'う', '烺', '瞸', '賯', '▉', '喆', '厫', '鴿', '媅', 'ě', '嘮', '剋', '〢', '憰', '鞟', '¿', 'ø', '貦',
            '②', '廫', 'й', '榽', '汻', 'え', '偘', 'ォ', '熥', '鷓', '╢', '忁', '訵', '−', '臝', '撨', '┍', 'î', '饡', '玨', 'ず',
            'ǒ', '灦', '櫅', 'ы', '註', '≥', '沑', '岠', '踠', '崡', '眽', '宺', '榼', '鮃', 'ぼ', '駞', 'だ', '⑥', 'Ⅲ', 'Ⅺ', '⒚',
            '◀', '岧', '慀', '▿', '僒', '睂', '褑', '葯', 'ァ', 'の', '䌷', '襱', '〜', '阺', '籫', '捀', '箓', 'ヽ', '撘', '櫂', '騳',
            '潪', '偤', '誂', '鈜', '々', '╳', '坹', '鄼', '冋', '鼶', '閫', '┄', '躓', '薳', '嘥', '髇', '寍', '鹍', '℉', 'ぴ', '籯',
            '躚', 'Ⅻ', 'ⅶ', '谞', '钁', '黌', 'Ç', 'ζ', '＃', 'セ', '旙', 'Ä', '糝', '㊣', '璅', '礛', 'Λ', '∝', '¯', '蓨', '胘',
            '銾', '釐', 'ⅳ', '∆', 'Ⅸ', 'バ', '﹕', '閱', 'ㄋ', '☟', '蓙', '襵', '碨', '鶉', '臢', '襴', '╣', '騯', '魿', '揦', 'ï',
            '＊', '鹒', '饾', '÷', '袣', '皳', '簓', '閰', '虴', '｝', 'が', '坸', '\x81', '黕', '鄾', 'っ', '∙', '岓', '玡', '幒', '¥',
            'ε', '狛', '糡', '∮', '榹', '鹡', '仧', '⑶', 'ㄍ', '￡', '厭', '厷', '釋', '嘩', 'ん', '墰', '潛', '∧', '玭', '偠', '黃',
            '觡', '鋁', '橉', '＠', 'ш', 'З', '︴', 'á', 'ィ', '鼼', '\U0010a96d', '硂', '雋', '黅', '蓩', '蘛', 'ǖ', '─', '蕓', '坿',
            '罀', '碦', '軳', '堸', '﹒', '靃', '┘', '坴', '沀', 'ó', '軰', '紷', 'υ', '撛', '∽', '雃', '里', '蓞', '冊', '橎', '獈',
            '⒊', '幑', 'ッ', '慁', '笓', '°', '銼', '柤', '•', '↘', '廭', '罁', '¸', '潝', '鋅', '︼', 'ゐ', '駛', 'ガ', 'β', '❤',
            '琖', '★', '※', '匄', '玞', '仈', '鄷', '酁', '旣', 'ι', '❓', 'デ', '瑻', '®', '¤', '榸', '瑿', '骵', '腫', '阷', 'Æ',
            'è', 'ё', '▕', '⾼', '鈣', '柣', '葥', 'т', 'キ', 'κ', '鳡', '◢', '⑩', '徲', '潨', '墧', '┎', '硁', '揚', 'Ó', '鮆',
            '鬢', '蠣', '〃', '觟', '╟', 'ä', 'П', '坰', '､', '薺', '廟', '柛', '徿', '囒', '灴', '﹛', '貧', 'Ы', '狉', '仏', '誅',
            '爓', '羴', 'ξ', '礝', '虳', '円', '揜', '♥', 'В', '簐', '琘', '灳', '釒', '鬦', '旛', '簔', '幐', 'Б', '碭', '媀', '趠',
            '靄', '鉨', '{', '∩', '㎡', '鸻', 'ㄡ', 'く', '厱', '憵', '瞦', '旤', '﹍', '饜', '錘', '榶', '!', 'ǔ', '証', '挶', '銽',
            '﹡', '腪', '坺', '﹄', '≮', '鶊', '魼', '踜', 'ゞ', 'Ⅱ', 'ら', '幓', '誇', '踓', '徹', '賷', '岥', 'リ', 'Υ', '\uf076',
            '寃', '霻', 'б', 'ⅰ', 'Ο', 'и', '檼', '椪', '毥', '黖', 'μ', '鴷', '铓', '玦', '訰', '檺', '鴼', '＜', '籵', '攕', '㈦',
            '⒕', '崜', '誆', '\uf0b7', '┻', '臔', '渟', '□', '囉', '\x8d', '鶈', '笢', '厼', '悀', 'Ι', 'ㄓ', '窢', '⑵', '憶', 'し',
            'ǜ', '鮇', '▇', '┷', '坵', '閹', '玬', '簈', 'Τ', '亹', 'づ', '紿', '愹', '墱', '/', '﹗', '합', '砳', '袨', '恷', '″',
            '笎', '⒁', '捒', '褖', '(', '碯', '←', 'べ', '©', '玪', '\u200b', 'ぇ', '賶', 'Κ', 'п', '罊', '灢', 'ゾ', '┠', '┫',
            '聉', '⒅', '烶', '\\', '胋', '郀', 'ь', '終', '軯', '簉', '㎞', '薴', '皶', '椨', 'у', '⒀', '榯', '☉', '℃', 'ゆ', '堳',
            'к', '旫', '^', 'Я', '鈡', '㯟', '霵', '﹪', 'ズ', 'つ', '勷', '渧', '狋', '胏', '骾', '璂', '鬝', '┰', 'ホ', '旕', '蓫',
            '椮', 'じ', '☁', '慄', '皯', '籱', '铔', '誎', 'Ƭ', 'Ü', '蘜', '錊', '袡', '潤', '⋯', 'フ', '﹎', 'へ', '罒', '瞤', '礏',
            '冝', '爍', '愼', '¢', '憳', '聗', '袚', '賺', '崨', '琒', '滫', '鶍', '髈', '囎', '僑', '挵', 'ゝ', '岡', '宷', '橖', '蘗',
            '厰', 'け', '剓', '厵', '糢', 'タ', '﹫', '捑', 'ア', '雑', '柕', '鹓', 'ő', '碵', '鞰', '毎', '爕', '財', '刾', '橑', '躝',
            '鞳', '砤', '↙', '毠', '涊', 'Ø', '┬', '⑺', '墯', '╱', '廧', '̈', 'ㄑ', 'Ⅷ', '≠', '鐮', '糭', 'ぁ', '隿', '鸼', '椶',
            '▔', '囘', 'Ý', '→', '葷', '渮', '翈', '鈤', '羾', '盁', '囋', 'ψ', 'ク', 'ち', '冇', 'ヴ', 'ぷ', '◤', '椳', '鞨', '╥',
            'ρ', '眬', '許', 'τ', '騭', '瞱', '蕄', '灥', '❀', '挻', '琞', '鶃', '銹', 'ã', '獅', '軲', '└', '腦', '狆', 'ǐ', '▏',
            'ユ', '灤', 'ㄉ', '觓', '姸', '葰', '皰', '媁', 'ˎ', '靅', '冚', '薾', '蕍', '┉', '葨', 'φ', '瞭', 'ㄙ', '齁', '┌', '鄸',
            '■', '箤', '駤', '〗', '攞', '瞷', '葮', '廩', '㗎', '幎', '[', '醿', '攙', 'ご', '█', '仒', '浾', '嬝', 'ㄝ', '︻', 'ヌ',
            'ͼ', 'ソ', '\x7f', '陖', '渦', '蓛', '臛', '廬', '騪', '狓', '鴹', '喛', '撣', 'з', '梄', '剕', '鶌', '誑', '△', '≧', '▪',
            '駠', 'ﾉ', 'ト', '垀', 'К', '▂', '翂', '寀', '鈗', '囆', '騮', '∨', 'ナ', '釈', '釓', '鴶', '晽', '-', '薶', 'レ', '暀',
            '涆', '黁', '攓', '嘪', '鮀', '桼', '黒', '沄', 'Β', '￢', '襭', '潥', '髄', '寋', '趕', '﹃', 'Ê', '嬔', '♦', 'Õ', 'ル',
            '攛', '≡', '葠', '璑', '腳', '愻', '腨', '梍', '¡', '鞥', '婸', 'お', 'ぬ', '焅', 'ミ', 'χ', 'そ', '橔', '骯', 'ぽ', '梀',
            '沒', '雘', '廣', '毦', '沎', '虷', 'í', '狚', 'プ', 'モ', '糞', '晼', '軬', '≦', '㏒', '嬡', '⽀', '笒', '虸', '腯', '騰',
            '崝', '趖', '偟', '鷕', '趙', '砫', '┮', '駜', '皹', 'ゲ', 'ヶ', '偛', '揯', '葴', '醾', '\ue04a', '賳', '躑', '黂', '崚',
            '爘', 'Ш', '陁', '蚈', '婼', '骴', '鹟', '鹠', '錎', 'ふ', '狘', '腢', '璆', '躘', '皼', 'Γ', '醼', '踖', '趝', 'ň', '年',
            'は', '⾳', '晻', 'よ', '愺', '︾', '旜', '⒐', '┭', '﹤', "'", '鴳', '浶', '饝', '醽', '阹', 'ザ', '椦', 'р', '胓', '挾',
            '箯', '鷜', '鞬', '砿', '晸', '￠', '駡', '爔', '桿', '嘢', '寁', '罃', '撧', '┊', '撚', '涇', '笗', '熢', '〞', '確', 'ⅲ',
            '㏄', '椥', '榵', 'ス', '騬', '褜', '碤', '鉱', '褝', '紾', '○', '揬', '蚃', '嬢', 'à', '╯', '﹜', '霿', '胠', '墫', 'ヅ',
            'ほ', '薬', '啿', 'テ', '墥', '焈', '臜', '蕔', '狖', '墮', 'х', '玜', 'ㄗ', '潙', '∈', '琙', '滘', 'ß', '媃', '聎', '陏',
            '∪', '亼', 'ぉ', '橗', '蘚', '櫈', '錖', '礒', '櫀', '聐', '▎', '罇', '陑', 'ㄩ', '鋃', '僜', '蚆', '騴', '⒒', 'ⅱ',
            '\uf0a0', '焁', '躌', '剗', '⑨', '嬞', '骿', '㈨', '瞹', '砢', '︿', '㈢', '鹖', '揧', '羵', '聓', '⑸', '柨', '亽', 'ㄨ',
            '㎎', '〡', '鶐', '媂', '腣', '徾', 'ㄟ', '狕', '╂', '胢', ';', '潗', '憻', '趜', '翀', '·', 'て', 'ⅵ', '玚', '駟', '騶',
            '袠', '℡', 'ギ', '사', '鮅', '⒑', '︺', '橚', '櫄', '﹞', '니', '媆', '椷', '櫉', '阸', '>', 'é', '眰', '鷛', 'ㄥ', '簍',
            '\ue021', '㈧', '恠', 'ツ', '㧪', '璍', '▷', '晿', 'か', '錋', '葲', '⒔', '‰', '鮂', 'た', '薭', '梋', '骽', '薵', '﹀',
            '蕕', '饸', '冐', '灩', '臟', '蘏', '鸴', '嘷', 'マ', '┛', '胣', '恜', '啽', '陊', '礖', '﹐', '鷙', '烸', '鉲', '胔', '墴',
            '⾰', '鬨', '睄', '砲', '訹', '駥', '閲', 'パ', '聕', '∣', '籪', '旟', '潠', '╅', '攚', '軮', '軴', '⒓', '潚', 'ì', '鄳',
            '葢', '駨', '鴴', '憯', '葤', '沋', '毑', '椯', '涍', '猶', 'õ', '沊', '簘', '璄', '胒', '～', '}', 'е', '幉', '礗', '釀',
            'Ⅹ', '碸', '∴', '寏', '涀', '暆', '_', '訶', '岝', 'ノ', 'Ã', '⌒', 'れ', 'ゑ', '堶', '籰', 'ュ', 'ㄅ', '笟', '灱', 'ㄢ',
            '組', '袞', '③', '鉪', '崯', '薿', '袙', '憴', 'に', '躕', '♂', '鵀', '▊', '糦', '閬', '╚', '﹔', 'ㄠ', '岒', '梉', '%',
            '▋', '翃', '紹', '鞪']

file = '/data1/lhw/news2016zh_train.json'
keys = ['desc', 'title', 'content']
out_file = open('./news2016zh_train_covered_2.txt', 'w')
for line in open_txt(file):
    json_str = json.loads(line)
    for key in keys:
        out = str(json_str[key]).strip()
        out = conver_label(out)
        out = out.split(',')
        for out_1 in out:
            out_1 = out_1.split('。')
            for out_2 in out_1:
                out_2 = out_2.split('、')
                for c in out_2:
                    if 2 < len(c) < 30:
                        judge = True
                        for item in list(c):
                            if item.strip() in else_tmp:
                                judge = False
                                break
                        if judge:
                            out_file.writelines(c.strip() + '\n')
